AAAI 2021 | 利用标签之间的混淆关系,提升文本分类效果
©PaperWeekly 原创 · 作者|张琨
学校|中国科学技术大学博士生
研究方向|自然语言处理
动机
更多的工作集中于第一步。这其实是有问题的,主要包含两个问题:
1. one-hot 的 label 表示假设标签之间是独立的,假设太强,忽略了标签之间的相互重叠关系;
2. one-hot 的 label 表示方法不仅丢失了标签包含的大量语义信息,同时会导致模型过于自信,在处理标签有噪声或者标签混淆度比较高的数据时出现问题。因此,需要对标签所包含的信息进行充分的处理和利用。
方法
这部分是本文的重点,本文认为直接使用 one-hot 来表示标签一方面造成了标签信息的浪费,一方面又会误导模型过于自信,而且模型无法处理便签混淆或者有噪音的情况。为此,本文设计了 LCM 方法用于对标签信息进行充分的建模。
具体而言,首先是一个标签编码器,例如使用 MLP, DNN 之类的对输入标签进行编码,得到标签表示的向量。接下来是一个相似度计算模块(SLD),该模块首先通过一个相似度计算层计算当前数据句子和每个标签之间的相似度,然后使用一个带 softmax 的简单神经网络计算得到标签的混淆分布表示(LCD),这个表示能够在考虑当前输入的情况下,充分建模标签之间的依赖关系。相似度计算更有依据了。
到这里可以发现模型预测的标签概率分布是一个向量,第二步得到的标签的模拟分布也是一个向量,为了让预测模型能够充分利用这些信息,本文在这里使用一个 KL 散度约束这两个向量表示要离得近一些,具体可以表示为如下形式:
实验
在实验部分,本文做了几组实验:1)使用不同类型的基本预测模型,然后再加上 LCM,对比前后的模型效果;2)为了充分验证模型能够处理标签混淆以及标签含噪音的情况,本文也设计了几个含有不同标签混淆度,不同标签噪声的模型,来进一步验证模型的效果;3)本文还通过一些可视化进一步展现加上 LCM 之后模型的性能。具体结果如下图:
总结
本文主要是针对标签信息的充分利用进行了深入的研究。区别于传统的 label smoothing 或者 label embedding 方法,本文希望在利用标签信息时能够充分考虑输入的情况,是输入影响了标签之间的重叠或者依赖关系。
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。